AI资讯新闻榜单内容搜索- Transform

YOLO已经悄悄来到v12，首个以Attention为核心的YOLO框架问世

YOLO 系列模型的结构创新一直围绕 CNN 展开，而让 transformer 具有统治优势的 attention 机制一直不是 YOLO 系列网络结构改进的重点。这主要的原因是 attention 机制的速度无法满足 YOLO 实时性的要求。

来自主题: AI技术研报

10185 点击 2025-02-22 14:14

近8年后，谷歌Transformer继任者「Titans」来了，上下文记忆瓶颈被打破

正如论文一作所说，「新架构 Titans 既比 Transformer 和现代线性 RNN 更有效，也比 GPT-4 等超大型模型性能更强。」

来自主题: AI技术研报

8666 点击 2025-01-16 09:54

谷歌新架构一战成名，打破Transformer记忆瓶颈，姚班校友钟沛林新作

想挑战 Transformer 的新架构有很多，来自谷歌的“正统”继承者 Titan 架构更受关注。

来自主题: AI技术研报

8226 点击 2025-01-14 14:24

Mamba作者带斯坦福同学、导师创业，Cartesia获2700万美元种子轮融资

Mamba 这种状态空间模型（SSM）被认为是 Transformer 架构的有力挑战者。近段时间，相关研究成果接连不断。而就在不久前，Mamba 作者 Albert Gu 与 Karan Goel、Chris Ré、Arjun Desai、Brandon Yang 一起共同创立的 Cartesia 获得 2700 万美元种子轮融资。

来自主题: AI技术研报

9628 点击 2024-12-13 17:21

智能体零样本解决未见过人类设计环境！全靠这个开放式物理RL环境空间

在机器学习领域，开发一个在未见过领域表现出色的通用智能体一直是长期目标之一。一种观点认为，在大量离线文本和视频数据上训练的大型 transformer 最终可以实现这一目标。

来自主题: AI技术研报

6708 点击 2024-11-24 19:59

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作，DiT 模型抛弃了传统的 U-Net 扩散架构，转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众，后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。

来自主题: AI技术研报

4577 点击 2024-11-15 15:09

Token化一切，甚至网络！北大&谷歌&马普所提出TokenFormer，Transformer从来没有这么灵活过！

新一代通用灵活的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦！

来自主题: AI技术研报

8105 点击 2024-11-14 14:13

微软清华改进Transformer：用降噪耳机原理升级注意力，一作在线答疑

Transformer自问世后就大放异彩，但有个小毛病一直没解决：总爱把注意力放在不相关的内容上，也就是信噪比低。现在微软亚研院、清华团队出手，提出全新改进版Differential Transformer，专治这个老毛病，引起热议。

来自主题: AI技术研报

4466 点击 2024-11-03 14:32

132年未解开的李雅普诺夫函数谜题，被Symbolic Transformer攻克了

牛顿没解决的问题，AI给你解决了？ AI的推理能力一直是研究的焦点。作为最纯粹、要求最高的推理形式之一，能否解决高级的数学问题，无疑是衡量语言模型推理水平的一把尺。

来自主题: AI技术研报

4998 点击 2024-10-20 16:41

Jurgen、曼宁等大佬新作：MoE重塑6年前的Universal Transformer，高效升级

7 年前，谷歌在论文《Attention is All You Need》中提出了 Transformer。就在 Transformer 提出的第二年，谷歌又发布了 Universal Transformer（UT）。它的核心特征是通过跨层共享参数来实现深度循环，从而重新引入了 RNN 具有的循环表达能力。

来自主题: AI技术研报

10798 点击 2024-10-19 14:29